「大量資料」是個抽象的觀念,也在媒體的鼓吹之下背負了過多的期望,讓人誤以為「只要資料的量夠大,資料就能自己說話」。
很遺憾的,資料是不會說話的。資料甚至不是客觀的,而是人類設計之下的產物。我們為數字發聲,從中產生推論,為了我們的主觀詮釋而去定義資料的意義。無論是資料的收集或分析,我們都早已在當中預藏了偏頗,而這些偏頗帶來的風險,在「巨量資料」這個主題上,事實上跟「資料」本身一樣重要。Crawford 以 Hurricane Sandy 和 Google Flu Trends 為例,佐證前述的問題。事實上,資料並不總是反映了社會現實,甚至還常常有很大的差距。在前述的兩個例子當中,即便收集資料的方式不斷推陳出新,也還是無法解決一些「收集不到需要的資料」跟「錯誤詮釋」的問題。
理解當前的限制,也可能是新突破的開端。Crawford 建議資料科學可以借鏡社會科學的方法學,因為這個領域自古就面對了這些問題。事實上這個建議和 DJ Patil 的建議相當類似,他認為物理學或社會科學訓練出身的人比資訊背景的更適合擔任資料科學家的工作(參見「如何打造資料科學團隊」一文)。處理現實問題,需要對問題的情境有足夠的理解(awareness of context),而不只是對資料本身進行複雜的分析。
總之,巨量資料在資料處理及分析技術的進步上,讓我們有機會看到更深的結構以及做更精準的預測,但是要應用在任何現實問題上,依然需要對問題的背景情境有夠深入的理解,才能「問對問題」,然後做出有意義的解答。簡單的說,巨量資料不能讓資料自己說話,但是能讓人用它來說出更好的故事。
沒有留言:
張貼留言